第 3 章  ·  RLHF(一)-什么是对齐

第3章 第1节 RLHF(一)-什么是对齐


第3章 第1节 RLHF(一)-什么是对齐

阅读指南

电影《年会不能停》里,大鹏饰演的HR有句经典口头禅——"对齐颗粒度"。无论什么事,他都要先来一句:"我觉得咱们要对齐一下颗粒度。"什么意思?就是"咱们得先把话说到一个频道上,理解要一致"。比如说"人员优化",HR理解的是"裁员",员工理解的是"培训"——这就是颗粒度没对齐。说的是同一个词,但双方理解的完全不是一回事。这个梗放在AI上,就是让AI的行为和人类的价值观、意图、期待对上。HR和员工要对齐"人员优化"的理解,ChatGPT和人类要对齐"什么是好的回答"。这就是OpenAI要解决的核心问题。

1.1 什么是对齐

在AI的语境里,"对齐"(Alignment)指的是:

让AI系统的行为,与人类的价值观、意图和期望保持一致。

听起来很简单,对吧?但仔细想想,这个定义里藏着巨大的复杂性。

"人类的价值观"是什么?这可能是有史以来最难回答的问题之一。不同文化有不同的价值观,不同时代有不同的道德标准,甚至同一个人在不同情境下,都可能有矛盾的价值判断。

为什么"对齐"如此重要

来看一个不对齐的AI可能造成的问题。

想象一个纯粹追求"预测准确"的语言模型。它的目标很简单:给定上文,预测最可能的下文。

用户:"我感觉很痛苦,该怎么办?"

一个只追求"预测准确"的模型,会怎么回应?

它会在互联网的训练数据中,找到最常出现在这种话题后面的文字。可能是:

"我感觉很痛苦。也不知道该怎么办。每天都很累,
什么都不想做。"

从统计上讲,这可能确实是互联网上这类话题的常见续写。但这样的回答,对用户有帮助吗?不,它甚至可能有害——它强化了负面情绪。

一个"对齐"的AI应该这样回应:

"听到您感到痛苦,我很关心。虽然我是AI,但我想让您知道,您的感受是被重视的。

如果您愿意分享,我在这里倾听。无论是什么让您感到痛苦,说出来可能会有帮助。

同时我想提醒您:

您现在愿意说说吗?"

第一个回应,统计上"准确",但人性上"错误"。 第二个回应,可能不是统计上最常见的,但它是人性上"正确"的。

这就是我们需要"对齐"的原因

因为我们需要的不是一个"统计上准确"的机器,而是一个"人性上正确"的助手。

对齐的三个核心目标

OpenAI在研发ChatGPT时,明确提出了对齐的三个目标。这三个词,用英文说是Helpful、Honest、Harmless。翻译成中文:

Helpful(有帮助的)

这不仅仅是"回答问题",而是真正理解用户的意图,提供有用的、可操作的建议,主动帮助用户完成任务,在用户困惑时引导而非说教。

Honest(诚实的)

这意味着承认自己不知道的事情,表达适当的不确定性,不夸大自己的能力,在信息可能不准确时明确告知。

Harmless(无害的)

这要求拒绝有害的请求,避免产生偏见或歧视,尊重用户隐私,不强化危险的想法或行为。

这三个目标,听起来简单,实现起来却极其困难。因为它们常常是相互冲突的:

在这三者之间找到平衡,就是"对齐"的艺术。

1.2 三个阶段的全景图

从GPT-3到ChatGPT,OpenAI用了三个递进的阶段,一步步"对齐颗粒度"。

三步走:从GPT-3到ChatGPT

阶段1:预训练

这个阶段解决的是如何理解语言的问题。通过海量文本训练,模型学会了语言的统计规律,能够预测下一个词的概率分布。

输出模型:GPT-3

阶段2:监督微调

这个阶段转向如何回答问题的任务。用人工标注的问答对进行训练,让模型学会指令跟随,知道用户在提问时需要给出答案,而不是继续"接龙"。

输出模型:GPT-3.5-SFT(InstructGPT)

阶段3:强化学习对齐(RLHF)

这一步深入到如何给出"好"答案的价值判断。核心能力是价值判断和偏好对齐,使用数万条人类偏好标注数据进行训练,让模型学会符合人类价值观的回答方式。

输出模型:ChatGPT

三个阶段的内在逻辑

这三个阶段解决的是三个不同层次的问题:

三者缺一不可,不能颠倒顺序,也不能跳过任何一步。前面两个阶段虽然已经让模型有了能力,但还缺少最关键的一步——价值对齐。这就是为什么我们需要RLHF。

1.3 RLHF的核心

现在,我们来到了最关键、也是最微妙的一步。

这一步,不是教模型新的知识,也不是教它新的技能,而是教它:什么是"好",什么是"不好"

这涉及价值判断,涉及人类的偏好,涉及那些我们自己都很难用语言描述,但能直觉判断的东西。

RLHF:全称Reinforcement Learning from Human Feedback,基于人类反馈的强化学习。它背后的核心理念可能是整个ChatGPT训练流程中最聪明的一个想法:

这个思维巧妙地绕过了一个几乎无解的难题:

如果直接问:"什么是好答案?"很难给出清晰的标准。清晰?有逻辑?有帮助?这些都太抽象了,不同场景、不同人的标准完全不同。

但如果给两个答案,问:"哪个更好?"几乎可以立刻判断出来——即使说不清楚"为什么"。

RLHF的聪明之处就在于:不去定义"好",而是去学习"人类的偏好"。

1.4 下节预告

有了RLHF的核心理念,接下来就是具体的实施步骤。OpenAI是如何一步步实现这个目标的?下一节,我们将深入RLHF的三个具体步骤,看看这个"对齐"的过程是如何完成的。

1.5 ■ 学点英语

中文 English 音标 说明
对齐 Alignment /əˈlaɪnmənt/ 让AI系统的行为与人类价值观、意图和期望保持一致
有帮助的 Helpful /ˈhelpfl/ 对齐三目标之一:真正理解用户意图并提供有用建议
诚实的 Honest /ˈɒnɪst/ 对齐三目标之一:承认不确定、不夸大能力
无害的 Harmless /ˈhɑːmləs/ 对齐三目标之一:拒绝有害请求、避免偏见
人类反馈强化学习 Reinforcement Learning from Human Feedback (RLHF) /ˌriːɪnˈfɔːsmənt ˈlɜːnɪŋ frəm ˈhjuːmən ˈfiːdbæk/ 利用人类偏好数据训练语言模型的技术范式
监督微调 Supervised Fine-Tuning (SFT) /ˈsuːpəvaɪzd faɪn ˈtjuːnɪŋ/ 用人工标注的问答对训练模型学会指令跟随
偏好 Preference /ˈprefrəns/ 两个候选中"哪个更好"的相对判断
价值观 Values /ˈvæljuːz/ 判断"好"与"坏"的内在标准,难以枚举定义

1.6 ■ 思考帧

监督微调(三)-对比与局限 RLHF(二)-RLHF的三个步骤
本节目录